●データレイクとは
データを発生した状態のまま格納する場所。
●出題された回(平成29年度春期以降)
令和3年度春期/平成31年度春期
データレイクの説明
データレイクとは、データの種類に依らず、全てのデータをそのまま保管する場所です。
レイクは英語で「Lake」、つまり、湖を意味します。
データレイクのキーワードは、
・データの種類に依らない
・そのままの形で保管する
です。
データの種類とは?
データの種類には、「構造化データ」と「非構造化データ」があります。
構造化データとは、表形式で管理できるデータのことで、コードや名称等がそれに当てはまります。
↓こんなイメージですね。
非構造化データとは、表形式での管理が難しいデータのことで、動画ファイルや画像ファイルがそれに当てはまります。
一般によく使われるデータベースのOracleやPostgreSQLは構造化データしか管理出来ません。それに対して、データレイクでは構造化データも非構造化データも関係なく、全部とりあえず保管しよう!という考えに基づいています。
データレイクの活用方法
データレイクはありとあらゆるデータをそのまま保管しているので、あらゆる角度からデータの分析をすることが出来ます。
後で使えるかもしれないから、とりあえず残しとけって感じですかね。
過去問
応用情報技術者 午前試験
令和3年度春期問31
データレイクの特徴はどれか。
ア 大量のデータを分析し、単なる検索だけでは分からない隠れた規則や相関関係を見つけ出す。
イ データウェアハウスに格納されたデータから特定の用途に必要なデータだけを取り出し、構築する。
ウ データウェアハウスやデータマートからデータを取り出し、多次元分析を行う。
エ 必要に応じて加工するために、データを発生したままの形で格納する。
正解は”エ”
データレイクはデータをそのままの形で格納します。よって正解は”エ”です。
応用情報技術者 午前試験
平成31年度春期問29
ビッグデータのデータ貯蔵場所であるデータレイクの特徴として、適切なものはどれか。
ア あらゆるデータをそのままの形式や構造で格納しておく。
イ データ量を抑えるために、データの記述情報であるメタデータは格納しない。
ウ データを格納する前にデータ利用方法を設計し、それに沿ってスキーマをあらかじめ定義しておく。
エ テキストファイルやバイナリデータなど、格納するデータの形式に応じてリポジトリを使い分ける。
正解は”ア”
データレイクはあらゆるデータをそのままの形で格納します。よって正解は”ア”です。